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摘 要 : [目的 /意义 ] 以 在 线 社交 网 络 为 研究 对 象 ,通过 文献 梳理 准确 捕捉 社区 发 现 的 发 展 态 势 及 研究 热点 ,探究 如 何在 
大 规模 社交 网 络 中 挖 握 隐 藏 社区 ,具有 理论 和 实践 意义 。[ 方 法 /过 程 ] 以 中 国 知 网 (CNKI) 数据 库 、Web of Science 
核心 合集 及 相关 国际 会 议 文献 作为 数据 来 源 , 应 用 CiteSpace 可 视 化 分 析 工 具 从 热点 关键 词 .主题 演化 路 径 以 及 共 
被 引文 献 等 方面 进行 定量 研究 ,并 从 社区 发 现 方法 、 算 法 实现 及 应 用 实践 3 个 维度 对 文献 内 容 详细 述评 。|[ 结果 / 
结论 ] 当前 研究 领域 仍 有 广阔 的 发 展 空间 ,未 来 应 注重 算法 的 优化 及 创新 、 应 用 场景 的 区 分 和 拓展 以 及 融合 跨 学 


科 知 识 \ 前沿 技术 方法 的 交叉 研究 。 
这 键 词 : 在 线 社交 网 络 社区 发 现 


动态 社区 演化 ”研究 进展 
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近年 来 ,在 线 社交 平台 对 个 人 学 习 生活 、 国 家 经 济 
局 以 及 社会 稳定 带 来 重要 影响 , 知 平 、 微 博 等 社会 化 
媒 保 拓 宽 了 网 民 汲取 知识 .了 解 新 闻 动 态 的 渠道 。 然 
而 ;在 线 社交 网 络 平台 全 面 融 入 人 们 生活 的 同时 ,虚假 
谣 宣 信息 盛行 .网络 推手 和 欺诈 活动 频繁 出 现 ,扰乱 了 
的 互联 网 秩序 。 方 滨 兴 等 器 认为 ,在 线 社交 网 络 


是 指 信息 网 络 上 由 群体 集合 及 个 体 联 系 构成 的 社会 性 


结构 ,包含 网 络 群体 .关系 结构 以 及 网 络 信息 3 个 要 
素 6 呈 现 出 人 际 传播 与 虚拟 交互 相 渗透 的 特点 。 
研究 发 现 ,在 线 社交 网 络 中 存在 与 现实 社会 一 样 
的 社区 结构 , 即 整个 社交 网 络 由 若干 子 社区 构成 ” ,发 
现 这 些 潜在 社区 对 研究 信息 传播 等 级 、 好 友 推 荐 以 及 
网 络 与 情 监管 等 方面 具有 现实 意义 。 在 学 术 研 究 方 
面 ,知识 网 络 的 结构 演化 也 反映 出 学 科研 究 主题 的 发 
展 过 程 ,社区 发 现 方法 被 广泛 应 用 于 作者 合 著 网 络 及 
学 科 知 识 流动 等 课题 ?1 ,成 为 研究 学 者 合作 网 络 ,学 
术 主题 演化 的 新 视角 。 社 区 发 现 也 被 称 为 社区 检测 、 
社区 识别 以 及 社 群 发 现 等 ,M. E. J. Newman' 认为 社 
区 发 现 是 将 整个 网 络 结构 依据 网 络 节点 划分 成 若干 小 
组 ,使 得 组 内 节点 连接 较为 稠密 ,组 间 节 点 连接 较为 稀 
玻 , 其 中 小 组 则 为 深度 挖掘 到 的 隐藏 社区 或 子 社区 。 


简单 而 言 ,社区 发 现 的 涵义 即 在 整个 网 络 结构 中 发 现 
存在 某 种 关联 性 的 子 社区 。 但 随 研 究 逐 步 深 入 ,在 线 
社交 网 络 中 的 社区 划分 依据 有 所 扩展 ,可 以 借助 兴 
网 络 .标签 信息 以 及 节点 链接 等 刻画 在 线 社交 网 络 的 
社区 结构 ,因此 ,概念 仍 属 于 不 断 更 迭 的 范畴 ,至 今 没 
有 明确 定义 。 
基于 上 述 逻 辑 ,本 文 对 相关 文献 进行 定量 分 析 ,并 
根据 研究 热点 将 文献 归纳 为 社区 发 现 的 方法 、 算 法 以 
及 应 用 实践 3 个 维度 ,分 析 提 炼 国内 外 该 主题 的 发 展 
态势 及 研究 前 沿 ,以 期 明晰 未 来 研究 的 切入 点 ,具体 研 
究 思路 见 图 1。 


2 在 线 社交 网 络 的 社区 发 现 主题 文献 计 
量 分 析 


运用 可 视 化 分 析 软 件 CiteSpace 对 主题 文献 进行 
计量 分 析 ,包括 论文 年 代 分 布 ,文献 关键 词 统计 主题 
发 展 脉络 以 及 共 被 引文 献 分 析 4 个 方面 。 
2.1 文献 来 源 
本 文 数据 主要 来 自 3 个 方面 :中 英文 权威 数据 库 、 
际会 议 期 刊 以 及 在 线 学 术 社 区 和 自 媒 体 平台 ,具体 
来 源 分 布 如 下 : 
(1) 英 文 文献 来 源 。 基 于 Web of Science 核心 集 ， 
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论文 年 代 分 布 
主题 发 展 脉络 分 析 | 文献 计量 分 析 
关键 节点 文献 分 析 


在 线 社交 网 络 的 社 
社区 发 现 方法 区 发 现 研究 进展 
社区 发 现 算法 


| | 
站 | 主题 内 容 分 析 | 一 一 一 
社区 发 现 应 用 实 路 _ 


-| 未 来 研究 展望 | 


Fe 


二 区 发 现 算法 的 优化 及 创新 
| 区 分 并 拓展 社区 发 现 方法 的 应 用 场景 
“人 融合 跨 学 科 知 识 、 前 沿 技术 方法 的 交叉 研究 


图 1 本 文 研究 逻辑 


时 间 跨 度 为 1990 - 2019 年 ,检索 式 为 :TS = (“Online 
social network” and(“ Community discovery” or “ commu- 
”) ) , 共 获 取 885 
篇 文献 ,根据 主题 和 文摘 内 容 ,筛选 得 到 460 篇 高 度 相 
关 文献 ;在 Elsevier 以 同样 方式 检索 ,获得 补充 文献 17 
篇 ; 男 在 文章 撰写 过 程 中 ,借鉴 相关 领域 最 新 顶级 期 乔 
会 汉文 献 52 篇 。 

ec-(2) 中文 文献 来 源 。 主 要 基于 CNKI\ 万 方 以 及 维 
痢 站 文科 技 期 刊 3 个 数据 库 ,检索 式 为 :SU = (“社交 

”+ “社会 化 媒体 平台 ) * (社区 发 现 ' + “社区 

检测 ”+“ 社 区 识别 ”+ “ 社 群 发现 " ) , 共 检索 到 439 篇 
中 2 文献 ,经 去 重 ,筛选 后 得 到 402 篇 高 度 相关 文献 。 

3(3) 在 线 学 术 社区 及 自 媒体 平台 。 借鉴 当前 较为 
科 况 的 学 术 社 区 及 自 媒 体 平 台 如 简 书 、 今 日 头条 、CS- 
DN 黎平 台 ,研究 标签 传播 算法 .Louvain 等 常用 算法 的 
实际 效果 及 效率 测评 。 
2 论文 年 代 分 布 

下 外 于 1999 年 首次 针对 社交 网 络 中 的 社区 结构 
进行 探索 ,提出 了 大 量 开创 性 想法 和 基础 理论 。 如 图 
:不 国内 外 发 文 量 整体 呈 同 步 增长 态势 ,2004 年 是 
国内 首次 研究 该 主题 ,主要 是 外 文 文献 的 综述 .国外 权 
威 算法 的 借鉴 及 优化 等 ;2008 年 ,在 线 社交 平台 、 娱 乐 
性 博客 以 及 知识 分 享 类 学 习 社 区 快速 发 展 ,文献 数量 
首次 呈现 大 幅度 增长 态势 ;2010 年 至 今 ,是 该 领域 的 
研究 热潮 ,涌现 出 大 量 的 算法 和 方法 研究 ,实际 应 用 场 
景 也 得 到 丰富 ,主要 涉及 到 通讯 业 .电子 商务 行业 以 及 
网 络 安全 等 领域 。 
2.3 文献 关键 词 统计 
国内 关键 词 分 布 如 图 3 所 示 , 除 社区 发 现 及 社交 网 
络 以 外 ,复杂 网 络 是 最 重要 的 节点 ,其 出 现 频次 达到 
51 次 ,此 外 , 词 频 较 高 的 节点 包括 微 博 (40 次 ) .重奏 社 
区 (29 次 ) .标签 传播 (27 次 ) .社区 划分 (20 次 ) .社区 结 
构 (18 次 ) .协同 过 滤 (18 次 ) .推荐 系统 (16 次 ) .主题 模 
型 (11 次 ) ,模块 度 (11 次 ) .矩阵 分 解 (10 次 ) 以 及 好 友 
推荐 (10 次 ) 等 ,为 下 文 主题 内 容 分 析 提供 了 参考 。 


nity identif * ” or” Community detect * 


250 306 


150 117 9 


文献 数量 (篇 ) 


7 6 
1999-2004 2005-2007 2008-2010 2011-2013 2014-2016 2017-2019 
时 间 (年 ) 
一 0 一 中 文 文献 一。 一 英文 文献 


图 2 论文 年 代 分 布 


- 眉 区 发 现 
2 
推荐 系 纺 因 人 和 模 仙 度 


社区 结构 ， 肯 + 交 网 络 
1 je 
。 舌 关 网 络 守信 区 标签 传播 
/ 绍 队 分解 ”社区 划分 
” “好友 推 庆 


国外 关键 词 分 布 如 图 4 所 示 , 与 国内 相似 , 除 
“社区 发 现 ” 和 “社交 网 络 ” 市 点 外 ,出 现 频 次 较 高 的 
重要 节点 包括 复杂 网 络 (105 次 )、 社 交 网 络 分 析 
(78 次 ) ,模块 度 (57 次 ) .算法 (50 次 ) 、 重 全 社区 (43 
次 ) ,社区 结构 (27 次 ) 、 图 谱 (27 次 ) ,集群 (21 次 )、 
标签 算法 (17 次 )、 中 心 度 (16 次 ) 以 及 数据 挖掘 (12 
次 ) 等 。 


Clustening 
verlapping community detection 


munity detection 
Wath lgorithm _dabelpropagation 
| ,odarity _genetic algorithm 
*oclial network analysis 
Eee cial network 


‘graph. e 
.community structure 
omplex neiwork 


图 4 国外 社区 发 现 研究 热点 
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2.4 主题 发 展 脉络 分 析 
本 部 分 应 用 时 区 视图 对 研究 主题 演化 路 径 做 出 曾 
释 。 国 内 “社区 发 现 " 研 究 始 于 2004 年 , 杨 楠 等 “对 web 


明显 。2010 年 开始 ,该 领域 得 到 广泛 关注 ,社区 发 现 方 
法 在 信息 检索 ,推荐 系统 及 用 户 分 析 等 方面 应 用 广泛 ， 
以 微 博 为 主 的 社会 化 媒体 成 为 在 线 社交 网 络 研 究 的 重 


社区 发 现 技 术 做 了 述评 。“ 复 杂 网 络 ” 主题 从 2004 年 
直 延 续 至 今 ,其 中 小 世界 性 质 . 无 标 度 性 质 以 及 网 络 聚 
类 等 特性 得 到 充分 研究 。2005 - 2008 年 ,研究 主题 空白 


9 有 必 自 342 
WoS: ©: eb nnn 
Seen erie oi 0 URE2, Lav=8, e=2.0 = = sh 
Network: N=180, E2138 (Density=0.0156j = 二 = 一 
CC: 138 (88%) 一 -ss > 


Largest ec: 
pe ee 
pr nder 


要 平台 ,用 户 的 倾向 性 分 析 、 兴 趣 扩展 \ 话 题 检 测 得 到 关 
注 。 网 络 社区 演化 ,社区 结构 识别 以 及 “动态 社区 ”和 
“重奏 社区 ”发现 算法 均 为 热点 话题 。 如 图 5 所 示 : 


#0 信息 检索 
n_ #1 推荐 系统 
| 推荐 系统 
| 矿 同 过 滤 中 心 节点 k- 护 分 部 owd unfollow 
| 社会 网 络 信任 发 现 , ’ 对 。 rank 算 法 #2 微 博 
| Me kel Ho ti 
| : 顽 网 络 链接 分 析 kclique 时 张 最 em 算 > 和 社区 结构 
| 传播 借 型 二 生体 区 企 修 请 站 pT 
| ”社区 结构 .看 党 社 [ 环 答 作 所 1 #4 好 友 推荐 
= | 而 径 社 区 发 现 hee 
| _ 款 隐 划分 好友 提 为 #5 复杂 网 络 
> 4 Wi 
< 十 征 阵 分 角 复 各 加 给 线 j 户 扒 #6 社交 网 络 
< 二 i 
个 性 化 推荐 社交 网 络 _ 光路 地 社区 疼 谷 纤 孝 社区 演化 
GN ee 交 可 从 为 和 
ler 
© -一 newman 快 速生 大 其 克 流 化 意见 领 逢 sp 算法 ”#8 社区 识别 
局 络 流 化 
© 依 蒜 从 桩 区 识别 
加 会 网 #9 spark 
< 十 关联 路 径 i louvain 
pagerank p cosra 算 法 #10 社会 化 媒体 
© 社会 化 媒体 
GN 5 国内 在 线 社交 网 络 中 社区 发 现 研究 主题 发 展 脉络 
EN 国外 学 者 于 1999 年 开始 研究 随机 网 络 ,基于 该 主 | 博弈 论 .图 理论 ,决策 理论 以 及 模糊 自 适应 共振 理论 等 ， 


上 


题 衔 生 的 邻接 矩阵 分 析 、 中 心 度 等 对 于 实现 社区 发 现 方 
法 至 关 重要 ( 见 图 6)。 其 他 主题 聚 类 也 基本 始 于 2004 
年 ( 份 析 可 知 :国外 研究 实践 性 较 强 ,大 量 算法 和 技术 已 

具体 现实 领域 ,如 社交 媒体 、 医 学 病毒 .电信 通信 


上 述 理论 与 复杂 网 络 中 的 社区 发 现 、 下 以 及 标签 传 
播 算法 关联 紧密 ,尤其 是 以 博弈 论 为 基础 的 社区 发 现 方 
法 在 重 半 社区 识别 中 广 受 关注 ”。 同 样 地 ,国外 也 重视 
网 络 社区 结构 识别 、 重 辣 社 区 检测 以 及 动态 社区 演化 的 


及 电子 商务 等 ,倾向 于 将 虚拟 网 络 中 的 社区 发 现 与 
现实 世界 的 群体 分 析 相 结合 , 旨 在 应 对 大 数据 挑战 并 提 
供 更 好 的 用 户 体验 。 同 时 ,国外 更 加 注重 理论 研究 ,如 


研究 。 在 算法 方面 ,国内 外 研究 大 体 相 似 , 图 6 中 所 展 
示 的 蝙蝠 算 法 (BA 算法 ) 是 X.S.，Yang 于 2010 年 提 
出 的 一 种 搜索 全 局 最 优 解 的 有 效 方法 。 
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6 国外 在 线 社交 网 络 的 社区 发 现 研究 主题 发 展 脉络 


144 


张海涛 ， 周 红 舌 ,张狂 蕊 ， 


ChinaXiv 合 作 期 刊 


等 . 在 线 社 交 网 络 的 社区 发 现 研究 进展 []]. 图书 情报 工作 ,2020 ,64(9 ) :142 - 152. 


2.5 关键 文献 分 析 
共 被 引文 献 分 析 呈 现 的 节点 文献 在 主题 发 展演 化 


息 分 析 功 能 ,同时 逐年 分 析 近 10 年 的 中 文 高 被 引文 
献 ,得 出 如 图 7 和 表 1 所 示 的 代表 学 者 及 关键 文献 : 


ANCICHINETTI A (2011) 
N YY (2010) 


NTOS (2010) 
VAL 2MPBbos) 


9NE 0 
- EA A (2008) 
ATO S (2007) 
-MEJ (200BAGHAVAN 


UN (2007) 


™ 
J 图 7 英文 共 被 引文 献 分 析 
表 1 核心 文献 归纳 
G@ 人 文献 代表 学 者 研究 内 容 时 间 ( 年 ) 
里 
E10] M. Girvan, M. E. J. Newman 等 最 早 研 究 社交 网 络 的 社区 结构 ,提出 “模块 度 " 这 一 重要 概念 2002 
Qu FRadicchi 等 按 结构 紧密 程度 将 网 络 社 区 划分 为 强 弱 社 区 2004 
雹 -14] L. Danon , 王 莉 , 李 建华 等 综述 :社区 发 现 方法 的 对 比分 析 及 提升 建议 2005 - 2015 
-16] U. N. Raghavan, R. Albert, M， Rosvall 等 较 早 提出 了 社区 发 现 算法 ,引起 学 者 关注 2004 -2010 
N17] G， Palla, I， Derényi 等 首次 定义 重 全 社区 ,成 为 新 的 研究 重点 2005 
Shs] Y. Y. Ahn 等 新 的 研究 思路 :认为 社区 是 组 密切 相关 的 “链接 ”构成 ,而 非 节 点 2010 
中 9 — 22 ] S.，Gregory, 吴 小 兰 , 章 成 志 , 刘 世 超 , 辛 宇 等 社区 发 现 算法 的 优化 及 发 展 2010 -2019 
23 ] F. Radicchi, L. Danon, A. Lancichinetti 等 不 断 提出 并 改善 算法 的 基准 测试 及 评测 标准 2007 -2011 
-26] 本 Xie，Z. Zhao , 何 婧 等 探究 动态 社区 发 现 算法 ,追踪 社区 结构 演化 2013 -2019 


- 它 虽 纳 上 述 关键 文献 可 知 :学 术 界 更 加 重视 重 蚕 社 
区 狗 现 .动态 社区 识别 以 及 社区 发 现 方法 的 对 比分 析 。 
同时 基于 在 线 社交 网 络 近年 来 凸显 的 社区 特性 ,社区 
发 现 算法 及 评价 标准 得 到 进一步 关注 和 优化 。 由 于 下 
文 针 对 社区 发 现 方法 及 算法 进行 重点 述评 ,本 节 仅 简 
要 归纳 核心 文献 内 容 。 


3 ”在 线 社交 网 络 的 社区 发 现 主题 内 容 分 析 


通过 上 文 定 量 分 析 和 文献 梳理 可 知 :该 主题 下 社 
区 发 现 方法 、 算 法 实现 及 应 用 实践 方面 的 研究 非常 丰 
富 , 可 以 基本 包含 有 关 人 研究 主题 ,还 未 有 学 者 进行 全 面 
述评 。 因 此 ,本 文 将 在 线 社交 网 络 的 “社区 发 现 " 主题 
划分 为 社区 发 现 的 方法 、 算 法 实现 以 及 实践 应 用 研究 
3 个 维度 进行 定性 述评 。 
3.1 社区 发 现 方 法 

专家 学 者 通过 不 同 视角 探究 社区 发 现 方法 , 紧 跟 


网 络 的 发 展 变化 制定 新 的 社区 发 现 方案 ,包括 多 种 理 
论 或 模型 的 结合 及 创新 ,本 文 将 其 概述 为 社区 发 现 方 
法 ,通过 各 类 方法 研究 ,可 以 更 好 地 处 理 数据 集 差异 性 
问题 并 挖掘 网 络 社区 结构 的 细微 之 处 。 社 区 发 现 方法 
归纳 见 表 2。 
3.1.1 基于 图 理论 的 社区 发 现 方法 (2002 年 至 今 ) 
图 是 社交 网 络 中 常用 的 关系 表现 形式 ,包括 节点 、 
边 和 度 等 要 素 ,经 典 的 图 聚 类 方法 也 称 为 图 划分 , 指 试 
图 找到 最 好 的 切割 方式 将 图 划分 为 不 同 的 部 分 ( 即 社 
区 ) , 常 采 用 最 小 图 分 割 方法 。Y. R. Lin 等 ”研究 媒 
体 平 台中 的 社区 结构 时 ,利用 元 图 构建 多 关系 模型 和 
多 维 社交 数据 ,通过 增 量 元 图 分 解 来 处 理 时 变 关系 。 
J. Chen 等 ”从 给 定 的 稀 玖 图 中 提取 有 意义 的 稠密 子 
,文中 “稠密 子 图 ”被 作者 解释 为 社区 ,该 方法 无 需 
提前 指定 划分 簇 的 数量 。 
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表 2 社区 发 现 方法 归纳 


方法 作者 研究 内 容 优 缺点 方法 作者 研究 内 容 优 缺点 
基于 图 理论 Y.R.Lin 等 ”通过 分 解 增 量 元 图 处 理 。 理论 发 展 完善 .方法 | 基于 数学 模 了 .. Copalan 基于 贝 叶 斯 网 络 模型 , 结 ”运算 精确 ,识别 的 社 
的 社区 发 现 时 变 关系 的 社区 发 现 方 ”简单 可 行 ,但 在 识别 | 型 的 社区 。 。 等 。 合 网 络 子 采样 动态 更 新 。 区 结构 质量 较 高 ,但 
方法 法 动态 网 络 时 存在 局 | 发 现 方法 社区 的 估计 值 膨胀 过 程 中 存在 参 
J. Chen 等 。 从 给 定 的 稀 琉 图 中 提取 限 性 张 琴 等 。 ”运用 灰色 理论 .密度 峰值 。 数 过 度 敏感 性 问题 
有 意义 的 稠密 子 图 聚 类 算法 及 粗糙 集 理论 
实现 社区 发 现 
基于 主题 语 Z Xia 等 。 利用 评论 内 容 挖 所 语义 可 以 借助 关键 语义 | 基于 链接 分 YY. Ahn 等 ”认为 社区 是 由 “链接 " 构 ”可 以 利用 潜在 链接 
义 的 社区 信息 ,从 而 构建 相似 主题 。 信息 ,反映 人 们 的 偏 | 析 的 社区 成 ,通过 链接 相似 性 进行 ”有效 检测 社会 群体 
发 现 方法 语义 网 络 好 .关注 话题 等 内 | 发 现 方法 社区 识别 行为 的 隐 仿 联系, 适 
ML M. Anwar 基于 同一 主题 的 输入 查 。 容 , 适 用 性 强 W. Liu 等 。 以 马尔 科 夫 网 络 为 框架 ， 用 于 大 规模 网 络 处 
等 。 。 询 , 发 现时 间 敏 感 开 活 动 利用 链接 分 析 网 络 中 正 。 理 
驱动 的 用 户 群 体 在 互动 的 群体 
基于 局 部 优 .Tang 等 。 提出 局 部 影响 优先 策略 ， 不 需要 构建 完整 的 | 基于 深度 学 。 LYang 等 基于 模块 度 函数 的 半 监 
化 扩张 的 社 根据 其 边际 增益 为 每 个 。 网 络 拓扑 结构 ,降低 | 习 算 法 的 社 督 方法 挖 据 社区 结构 总 纬 度 的 数据 处 理 
区 发 现 方法 社区 分 配 候选 节点 计算 成 本 区 发 现 方法 G. Speqi 。 利用 深度 学 习 算 法 改善 ”和 数据 挖掘 能 力 ,多 
邻接 短 阵 高 维 性 或 稀 牙 。 于 解决 大 型 网络 的 
复杂 计算 问题 


-一 一 


ga 基于 数学 模型 的 社区 发 现 方法 (2007 年 至 今 ) 
全 该 主题 研究 涉及 大 量 数学 领域 的 理论 和 方法 , 
KCGGopalan'” 提出 了 一 种 基于 贝 叶 斯 模型 的 社区 检测 
7 大 ,允许 节点 参与 多 个 社区 ,与 重 登 社区 识别 的 特征 
相 狠 合 , 同 时 灵活 地 蚕 加 了 来 自 网 络 的 子 采样 并 动态 
更 潮 发 现 社区 的 估计 值 。 张 区 等 "运用 灰色 理论 定 
这 局 结构 相似 性 ,结合 密度 峰值 到 类 算法 确定 到 类 
中 必 ,并 引入 粗粮 集 理论 根据 网 络 结构 自动 选取 中 心 
直 , 不 断 调整 距离 比率 阐 值 进行 划分 兴 代 ,从 而 划分 
重 茂 社区 结构 。 
3. 允 3 基于 主题 语义 的 社区 发 现 方法 (2009 年 至 今 ) 
.CC 大 量 社区 发 现 方法 多 采用 节点 共同 属性 或 拓扑 结 
构 则 分 社区 ,无 法 利用 节点 或 边缘 的 语义 等 关键 信息 ， 
未 能 反映 人 们 的 兴趣 爱好 .关注 话 题 等 内 容 。 基 于 主 
题 语义 的 社区 发 现 方法 考虑 了 节点 信息 内 容 , 适 用 于 
研究 社交 媒体 平台 。Z，Xia 等 挖掘 评 论 内 容 中 的 
语义 信息 构建 整个 语义 主题 网 络 ,聚焦 主题 权重 对 每 
个 边 的 影响 ,将 重点 放 在 降低 计算 复杂 度 上 ,适用 于 大 
规模 网 络 处 理 。M. M. Anwar 等 ”针对 一 组 给 定 查 询 
主题 ,跟踪 动态 社交 网 络 中 时 间 敏 感 型 驱动 的 用 户 群 
组 ,发 现 组 内 用 户 的 主题 关注 情况 在 时 间 上 倾向 于 相 
似 。 
3.1.4 ”基于 链接 分 析 的 社区 发 现 方法 (2010 年 至 今 ) 
社交 媒体 平台 用 户 间 关 注 存在 单 向 情况 ,联系 程 
度 较 弱 ,利用 拓扑 结构 特性 进行 社区 发 现 有 时 并 不 理 
想 。 该 方法 允许 网 络 的 顶点 属于 多 个 社区 ,有 助 于 发 


现 重合 社 区 结构 。 与 大 多 数 研究 者 观点 不 同 ,Y. Y. 


Ahn 等 "指出 高 度 重 秋 社区 可 能 存在 更 多 外 部 链接 ， 
认为 社区 是 由 一 组 密切 相关 的 “链接 ”构成 ,而 非 节 
点 ,该 方法 使 用 层次 结构 聚 类 和 链接 之 间 的 相似 性 构 
建树 枝 图 ,在 最 大 分 区 密度 处 分 析 发 现 的 链接 社区 。 
WLiu 等 中 以 马尔 科 夫 网 络 为 框架 ,通过 分 析 与 社交 
对 象 相 关联 的 链接 进行 社区 检测 ,并 利用 潜在 链接 挖 
掘 社会 群体 行为 中 的 隐 含 动态 ,该 方法 实现 无 需 考虑 
社交 网 络 的 拓扑 结构 。 

3.1.5 基于 局 部 优化 和 扩张 的 社区 发 现 方法 (2012 
年 至 今 ) 

在 大 规模 .具有 众多 节点 信息 的 社交 网 络 中 识别 
虚拟 社区 时 ,局 部 社区 发 现 算法 不 需要 网 络 的 整体 信 
息 , 该 类 方法 多 通过 局 部 结构 信息 快速 定位 目标 节点 
所 在 社区 ,从 核心 节点 出 发 ,通过 局 部 收益 函数 及 贪 禁 
策略 将 周围 节点 纳入 已 识别 的 虚拟 社区 中 ,主要 包括 
局 部 扩展 优化 .派系 过 滤 、 标 签 传播 .局 部 边 聚 类 优化 
4 类 方法 "" 。J Tang 等 "在 实现 社区 传播 影响 力 最 
大 化 时 ,采用 了 局 部 影响 优先 策略 ,在 第 一 阶段 利用 标 
签 传播 算法 检测 社区 分 布 ,并 根据 其 边际 增益 为 每 个 
社区 分 配 候选 节点 数量 ,在 此 基础 上 制定 了 粒子 个 体 
的 动态 编码 机 制 和 群体 离散 演化 规则 ,以 此 识别 社区 
内 高 影响 力 节点 。 

3.1.6 基于 深度 学 习 算 法 的 社区 发 现 方法 (2014 年 
至 今 ) 

在 大 数据 时 代 ,深度 学 习 算 法 研究 方兴未艾 ,广泛 
应 用 于 计算 机 视觉 机 器 阅读 理解 以 及 大 规模 数据 处 
理 等 领域 。 少 数学 者 针对 社区 发 现 方法 提出 了 解决 方 
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案 ,其 原理 多 为 对 网 络 的 节点 信息 进行 数据 降 维 处 理 ， 
或 者 通过 训练 网 络 图 相似 度 和 矩阵 得 到 低 维特 征 和 矩阵 。 
L，Yang 等 5 提出 了 一 种 基于 模块 度 函 数 的 半 监 督 社 
区 检测 方法 ,同时 使 用 未 加 权 图 的 矩阵 作为 自动 编码 
器 输入 ,用 于 获得 具有 非 线性 映射 的 低 维 嵌入 和 矩阵 。 
G. Sperli" 针对 邻接 矩阵 的 高 维度 或 稀 下 性 问题 , 提 
出 了 一 种 基于 深度 学 习 的 新 型 社区 发 现 方法 ,充分 考 
虑 了 数据 集 的 维度 和 邻接 矩阵 的 拓扑 特性 。 
3.2 ”社区 发 现 算法 

算法 研究 对 于 挖掘 社区 结构 至 关 重 要 ,根据 上 文 
定量 分 析 可 知 :社区 发 现 算法 的 研究 始 于 2002 年 , M. 
Girvan .M. E. J. Newman 、S，Fortunato 等 学 者 较 早 关 
注 到 该 领域 。2010 年 以 后 ,有 关 算 法 优化 和 创新 的 研 
究 逐 渐 增 多 ,专家 学 者 逐步 提出 或 通过 优化 早期 社区 
发 现 算 法 来 应 对 瞬息 万 变 的 社区 结构 。 同 时 ,算法 的 


大 的 节点 分 配 到 同一 社区 中 ,通过 划分 编码 长 度 最 短 
的 虚拟 社区 从 而 达到 社区 发 现 的 目的 ,多 用 于 需要 细 
致 刻画 社区 结构 的 情形 。 
3.2.2 社区 发 现 算法 的 发 展 及 优化 

以 上 算法 假设 每 个 节点 仅 存在 于 单个 社区 ,然而 
以 在 线 社交 网 络 为 例 ,每 个 用 户 都 具备 从 属 不 同 社区 
的 可 能 性 ,因此 ,虽然 有 些 算法 沿用 至 今 ,但 仍 存在 使 
日 上 的 局 限 性 。G. Pulla 等 "1 首次 证 明 社交 网 络 中 存 
在 重复 节点 现象 ,提出 了 Cluster Percolation Method 
(CPM ) 派 系 过 滤 算 法 。 随 着 网 络 社区 的 结构 特性 受到 
广泛 关注 ,出 现 了 各 类 适用 性 更 强 的 社区 发 现 算法 。 

(1) 标 签 传播 算法 及 其 优化 。 标 签 传播 算法 LPA 
(Label propagation algorithm)'“ 是 一 种 基于 图 的 半 监 
督学 习 方 法 ,其 思路 是 用 已 标记 节点 的 标签 信息 去 预 
测 其 他 节点 ,具有 实现 简单 以 及 时 间 复 杂 度 低 等 优点 ， 
但 LPA 算法 仅 适 用 于 非 重 准 的 静态 网 络 社区 。S. 


= 


| 
基 涂 测试 一 直 处 于 不 断 完善 的 状态 ,关于 重 普 社区 和 
却 R 社 区 的 探索 迄今 为 止 均 为 重点 研究 内 容 。 因 此 ， 
结合 上 文 关键 文献 梳理 ,追踪 最 新 算法 研究 ,归纳 出 如 
内 容 : 


早期 权威 的 社区 发 现 算法 
@ 〇 早期 社区 发 现 算法 大 体 可 以 分 为 分 裂 式 算法 . 基 
巴 寞 所 度 优化 及 信息 论 思想 提出 的 相应 算法 。 

过 (1)GN 算法 是 最 具 代 表 性 的 分 裂 式 算法 ,M. 
Fan 和 M. 了 . J. Newman'” 于 2002 年 聚焦 社交 网 络 
和 毕 物 网 络 的 社区 结构 ,首次 指出 网 络 拓扑 特征 有 助 
地 十 区 结构 识别 ,同时 提出 了 基于 最 大 边 介 数 的 分 列 


Gregory'" 通过 扩展 节点 标签 类 型 及 信息 传播 路 径 对 
标签 传播 算法 做 出 优化 ,使 信息 值 吉 括 多 个 社区 ,适用 
于 重 闪 社区 。 吴 小 兰 等 ”在 深入 研究 多 标签 传播 算 
法 的 基础 上 ,利用 节点 对 社区 的 贡献 度 来 区 分 节点 与 
其 邻居 社区 的 紧密 程度 ,提出 了 基于 贡献 度 的 多 标签 
传播 算法 COPRA_CD。 刘 世 超 提出 一 种 基于 标签 
传播 概率 的 LPPB 重 炙 社区 发 现 算法 ,该 算法 首先 为 
每 个 结 点 赋予 一 个 独立 标签 ,然后 根据 结 点 的 影响 力 
大 小 进行 排序 ,综合 网 络 传播 特性 和 结 点 属性 特征 值 
来 计算 标签 传播 的 概率 ,最 后 利用 结 点 的 历史 标签 记 


式 赂 次 算法 (C-N 算法 ) 。 该 算法 不 需要 提前 确定 社区 
数目 ,在 一 定 程 度 上 改善 了 Kernighan-Lin( KL) 算 法 和 
谱 二 分 法 的 局 限 性 ,但 它 需要 重复 评估 每 个 边缘 ,成 本 


(2)Louvain 算法 ”是 一 种 基于 模块 度 的 社 群 发 
现 算法 ,该 算法 无 需 事先 明确 群落 信息 ,在 研究 大 型 网 
络 上 具有 较 好 的 效率 和 效果 表现 ,常用 于 博客 类 社交 
媒体 平台 以 及 引文 网 络 社区 。 基 于 贪 禁 原理 的 
CNM 算法 本质 上 也 应 用 了 模块 度 的 思想 ,该 算法 使 
用 3 个 数据 结构 进行 社区 发 现 ,其 中 稀 朴 矩阵 即 为 表 
示 节 点 模块 度 变化 的 变量 。 除 此 之 外 ,基于 模拟 退火 、 
极 值 优化 提出 的 算法 也 源 于 模块 度 原 理 。 

(3 )M.， Rosvall 等 从 信息 论 的 视角 出 发 ,基于 随机 
游 走 编码 和 信息 压缩 编码 思想 ,于 2008 年 提出 了 In- 
forma 算法 ""。 该 算法 运用 目标 优化 函数 将 相似 度 较 


录 修 正 发 现 结 

(2) 基于 谱 分 析 和 聚 类 的 社区 发 现 算法 。 基 于 谱 
分 析 的 社区 算法 基于 如 下 思想 :相同 社区 内 的 节点 在 
拉 普 拉 斯 矩阵 中 的 特征 向 量 呈 近似 性 ,将 节点 对 应 的 
和 矩阵 特征 向 量 视 为 空间 坐标 ,将 网 络 节点 映射 到 多 维 
向 量 空间 中 ,然后 运用 K-means 或 FCM 等 经 典 算 法 聚 
集成 社团 ,此 类 算法 成 本 较 大 ,但 因 其 可 以 直接 使 用 传 
统 的 向 量 聚 类 成 果 , 灵 活性 很 高 ”。T.，Ma 等 “针对 
重合 社区 结构 识别 提出 了 LED 算法 ,该 算法 基于 结构 
内 类 ,将 顶点 间 的 结构 相似 性 转换 为 网 络 权 重 , 在 算法 
精度 及 运算 效率 方面 有 所 提升 。 张 军 祥 “提出 了 一 
种 基于 平滑 Ll 范 数 的 深度 稀疏 自 编码 右 社 区 发 现 算 
法 LI-ECDA ,算法 对 网 络 图 的 邻接 矩阵 进行 降 维 预 处 
理 ,通过 三 层 神经 网 络 及 K-means 算法 进行 矩阵 聚 类 
得 到 隐藏 的 网 络 社区 。 
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(3) 和 融合 多 维 信息 的 社区 发 现 算法 。 用 户 交流 逐 
渐 转 向 网 络 媒体 ,社会 关系 也 更 多 地 出 现 于 在 线 社交 
平台 ,针对 平台 特性 的 算法 研究 成 为 近年 来 的 研究 热 
点 ,算法 通过 融合 多 维 信息 提高 其 准确 性 , 主要 包括 用 
户 行为 .节点 内 容 ,链接 权重 .社交 关系 及 地 理 属性 等 。 
刘 冰 玉 等 ”提出 的 DC-DTM 算法 将 微 博 网 络 映射 为 
有 向 加 权 网 络 , 边 的 方向 反映 节点 间 关注 关系 ,将 节点 
间 的 语义 相似 度 赋值 为 节点 间 连 接 权重 ,有 效 解决 了 
微 博 网 络 的 稀 政 性 以 及 传统 LPA 算法 的 逆流 问题 。 
田 博 等 提出 了 一 种 基于 用 户 交互 行为 的 社区 发 现 
算法 ,利用 微 博 用 户 间 的 转发 关系 ,评论 关系 以 及 提 及 
关系 等 构建 加 权 交 互 网 络 ,不 断 合并 使 模块 度 函数 增 
益 最 大 的 节点 对 ,直到 模块 度 函数 增益 为 负 。 辛 字 
等 加 提出 了 一 种 面向 语义 社区 发 现 的 LBTC 算法 ,该 
疆 衣 以 LDA 模型 为 语义 信息 模型 ,将 语义 特性 和 社会 
交工 特性 相 结合 ,并 通过 定义 语义 链接 权重 实现 了 语 


加 束 量 节点 或 边缘 的 情况 。J.Xie 等 "提出 的 Label- 


前 和 稳定 传播 动态 ,从 而 识别 出 在 网 络 中 


正 酚 检测 的 所 有 社区 ,与 静态 社区 发 现 算法 相 比 ,La- 


befRank 算法 显著 提高 了 检测 到 的 社区 质量 。Z，Zhao 
等 后 多 年 来 致力 于 研究 边缘 权重 的 更 新 规则 ,提出 
“完全 独立 ” 子 图 更 新 策略 ,将 动态 社区 按照 新 生 社 区 


定量 划分 为 “ 强 社区 和 弱 社 区 ”, 可 以 对 社区 结构 紧密 
性 做 出 判断 ,在 此 基础 上 提出 了 仅 考 虑 局 部 变量 的 分 
裂 算法 ,对 模块 度 优 化 存在 的 分 辩 率 局 限 .过 度 依赖 网 
络 全 局 特征 等 问题 做 出 改善 。 

(3) 在 算法 的 性 能 方面 ,L，Danon 等 '” 依据 灵敏 
度 和 计算 成 本 比较 了 当时 的 社区 发 现 算法 ,认为 在 选 
择 算法 时 应 综合 衡量 这 两 个 方面 。 除 此 之 外 ,精度 及 
时 间 复 杂 度 也 是 衡量 算法 性 能 的 常用 指标 。 

(4) 归 一 化 互信 息 也 是 目前 广泛 使 用 的 一 种 社区 
划分 评价 指标 ,该 方法 定义 了 一 个 混淆 矩阵 ,其 中 行 对 
应 于 真实 社区 , 列 对 应 于 发 现 社区 ,通过 度量 发 现 社区 
和 真实 社区 之 间 相 似 程度 来 判别 算法 的 真实 效果 ” 。 

(5 ) 随 着 链 路 方向 和 算法 权重 受到 广泛 关注 ,人 A. 
Lancichinetti 等 ”于 2011 年 提出 了 一 类 无 向 和 未 加 权 
的 基准 图 ,对 节点 度 和 社区 规模 分 布 的 异 质 性 做 出 曾 
释 ,描绘 了 节点 度 和 社区 的 异 构 分 布 尺寸 ,并 充分 考虑 
节点 属于 多 个 社区 的 可 能 性 ,适用 于 重 闭 社区 算法 的 
测评 。 

综 上 可 知 ,社区 发 现 算法 不 断 更 新 ,对 于 算法 的 测 
试 标准 也 在 持续 增加 ,但 至 今 未 能 得 到 统一 ,尤其 是 动 
态 社区 内 部 存在 合并 、 分 裂 缩小 、 增 大 、 产 生 和 消失 等 
各 种 情况 , 仅 依据 相 邻 时 间 点 的 社区 相似 度 进行 评 
价 不 够 准确 。 其 次 ,算法 多 通过 合成 网 络 或 者 自选 测 
试 网 络 进行 验证 ,评测 结果 存在 主观 性 。 

3.3 ”社区 发 现 应 用 实践 
3.3.1 社交 媒体 平台 中 的 应 用 

识别 信息 传播 动向 发 现 社区 结构 演化 模式 和 演 
化 异常 点 ,对 于 网 络 群体 事件 监测 .与 情 动态 演进 等 具 
有 重要 价值 。 特 别 是 实现 动态 社区 识别 的 思路 是 基于 


的 诞生 以 及 原 有 社区 的 扩张 两 种 方法 划分 ,从 而 按时 
态 挖掘 社 区 演变 过 程 。 何 婧 等 ” 提出 的 LUA 算法 考 
虑 增 量 节 点 ,依据 拓扑 势 场 理论 更 新 拓扑 势 值 ,计算 增 


量 节点 影响 范围 内 的 邻居 节点 ,从 而 动态 调整 网 络 变 
化 部 分 的 社区 归属 。 


3.2.3 社区 发 现 算法 的 评测 指标 

(1)2004 年 ,M. 下 . J. Newman 和 M.， Girvan'" | 提 
出 了 著名 的 “模块 度 ” 作 为 衡量 社区 划分 的 标准 ,采用 
G-N 算法 进行 试验 ,模块 度 的 提出 为 算法 研究 和 算法 
评测 带 来 新 的 契机 ,后 期 也 有 学 者 针对 重 全 社区 发 现 
算法 提出 了 相应 的 模块 度 测评 公式 。 

(2)F.， Radicchi 首次 以 子 图 为 依据 将 网 络 社区 


时 间 节 点 的 算法 设计 ,与 社会 化 媒体 平台 中 的 情境 研 
究 方向 相 契 合 。K.，Gnu 等 “ 将 边缘 紧密 度 和 节点 兴 
言 息 作为 划分 社区 的 参考 标准 ,研究 微 博 `.YouTube 和 
Digg 社区 的 个 人 意愿 和 信息 传播 方案 。C. Li 等 ” 提 
出 了 一 种 基于 标签 相关 性 和 交互 行为 的 微 博 社区 发 现 
算法 ,利用 改进 的 最 大 边际 相关 性 模型 准确 赋予 用 户 
标签 ,从 而 挖掘 微 博 用 户 群 体 特性 。 李 纲 等 ”借鉴 社 
区 发 现 的 思想 ,对 构建 的 共 词 网 络 进行 划分 ,形成 描述 
不 同 热点 话题 的 “话题 社区 ”, 为 微 博 热 点 话题 的 识 
别 测度 和 演化 分 析 提供 了 新 思路 。 研 究 发 现 , 微 博 、 
Facebook 以 及 Twitter 等 社交 平台 可 以 提供 个 人 信息 
(节点 属性 ) ,包括 好 友 记 录 兴趣 偏好 和 位 置信 息 等 ， 
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对 其 进行 社区 发 现 研究 有 助 于 及 时 掌握 群体 动向 , 提 
升 用 户 体验 。 
3.3.2 推荐 系统 中 的 应 用 

社区 发 现 方法 可 以 在 大 规模 用 户 群 中 识别 相似 用 
户 ,进而 依据 用 户 共同 特征 进行 精准 推送 ,尤其 是 局 部 
社区 发 现 和 网 络 社区 的 链 路 预测 都 可 以 进一步 优化 传 
统 协 同 过 滤 针 对 整个 用 户 网 络 运算 的 数据 量 过 载 . 推 
荐 效率 低 等 缺陷 。K.，Xinchang 等 ”通过 构建 用 户 关 
系 网 络 缓解 推荐 系统 中 的 冷 启动 问题 ,利用 个 人 信息 
建立 用 户 关系 矩阵 ,并 采用 基于 边缘 中 心性 的 社区 检 
测 方法 为 新 用 户 提供 精准 推送 服务 。 张 继 东 等 5 通 
过 构建 基于 社区 划分 和 用 户 相似 度 的 信息 服务 推荐 模 
型 ,提高 了 移动 社交 网 络 中 好 友 推 荐 效率 及 好 友信 息 
服务 推荐 的 准确 性 和 可 信 性 。 社 区 发 现 方法 在 保证 扒 
福生 度 的 前 提 下 ,大 幅度 提升 推 荐 效率 ,为 在 线 社交 网 
颖 时 开展 精准 推荐 服务 提供 了 新 方法 。 
3 互联 网 营销 中 的 应 用 
< 用 户 通过 网 络 媒介 建立 社会 联系 ,信息 传播 活动 
正 勤 一 种 自然 交互 行为 ,伴随 网 络 用 户 规模 的 不 断 扩 
> 雪 联 网 营销 占据 主流 。 但 单纯 在 庞大 的 社交 网 络 
中 于 行 推广 营销 ,效率 低 且 成 本 较 大 ,因此 可 以 利用 社 
医 济 现 方法 提供 解决 方案 :通过 挖掘 网 络 社区 结构 特 
效 地 选择 营销 活动 范围 ,名 免 信 息 传播 重 关 , 提 
网 络 服务 效率 。Y.C.，Chen 等 ”基于 影响 力 最 大 
何 题 开发 了 高 影响 力 群 体 识别 框架 ,根据 社区 规模 
分 酌 种 子 数量 ,通过 识别 社区 结构 .选择 候选 人 及 确定 
种 兮 节 点 3 个 步 又 最 大 限度 地 扩大 信息 传播 范围 。 因 
此 ,影响 力 最 大 化 问题 常 指 确定 影响 传播 的 最 小 节点 
集合 ,但 对 算法 的 效率 和 实用 性 要 求 较 高 。 


4 研究 难点 及 未 来 展望 


研究 发 现 : 虽 然 算法 类 文献 较 多 ,但 大 多 聚焦 早期 
权威 算法 的 优化 和 借鉴 ,早期 算法 在 社区 识别 时 出 现 
的 极 大 干扰 情况 未 能 做 出 准确 说 明 , 具 体 而 言 ,分 析 动 
态 社区 演化 时 是 否 准确 保留 源 历 史 信 息 ? 如 何 有 效 减 
大 型 社区 对 弱 社 区 的 吞并 现象 而 不 是 简单 地 判定 为 
重合 社区 ? 同时,G-N 算法 的 高 成 本 问题 LPA 算法 的 
不 稳定 性 缺点 以 及 其 他 算法 高 成 本 问题 背后 带 来 的 回 
报 率 ,如 识别 的 准确 性 识别 重 全 社区 或 者 追踪 动态 社 
区 演化 等 优势 ,应 该 通过 何 种 统一 标准 权衡 都 阴 待 解 


S 


不 够 丰富 ,国内 在 线 社交 网 络 的 研究 平台 目前 局 限于 
微 博 等 内 容 分 享 类 平台 ,应 用 领域 多 分 布 在 虚拟 社区 
He 

综 上 所 述 ,当前 较 多 算法 不 能 准确 反映 真实 网 络 
社区 现象 ,应 结合 在 线 社交 网 络 的 结构 特性 做 出 改善 ， 
并 优化 社区 发 现 算法 的 评价 指标 。 其 次 ,移动 互联 网 
高 速 发 展 ,5G 智能 应 用 也 即将 面世 ,现实 空间 与 虚拟 
网 络 的 融合 将 不 断 深 入 ,因此 结合 场景 的 社区 发 现 方 
法 值得 重点 关注 。 最 后 ,该 主题 是 在 众多 学 科 影 响 下 
发 展 起 来 的 ,涉及 数学 .物理 .生物 .计算 机 以 及 图 书 情 
报 等 领域 ,未 来 在 进行 社区 发 现 的 相关 研究 时 ,结合 不 
同学 科 的 研究 方法 和 工具 可 能 会 成 为 解决 问题 的 突破 
口 。 因 此 ,结合 当前 研究 难点 ,提出 如 下 未 来 展望 : 
4.1 社区 发 现 算法 的 优化 及 创新 

现 有 算法 大 多 高 度 复杂 ,不 利于 在 大 规模 社交 网 
络 中 挖 据 网 络 社区 ,会 造成 一 定 程度 的 信息 缺失 。 其 
次 ,网 络 社区 结构 更 新 迅速 ,采用 大 规模 静态 数据 计量 
的 算法 不 再 适用 。 最 后 ,关注 到 用 户 从 内 容 创意 型 社 
交 网 络 逐 步 向 消息 流 型 社交 网 络 迁 移 , 基 于 位 置 的 发 
现 算法 未 能 体现 社交 媒体 中 的 时 序 性 特征 。 因 此 ,未 
来 在 算法 方面 可 以 开展 以 下 研究 : 

(1) 针 对 快速 算法 、 模 糊 识别 算法 的 研究 ,例如 基 
于 局 部 网 络 节点 ,关键 标签 信息 .融合 多 维 节 点 信息 的 
社区 发 现 算法 在 未 来 应 受到 进一步 重视 。 

(2) 优 化 早期 权威 算法 适应 性 问题 ,构建 社区 发 
现 算法 的 评价 机 制 ,统一 社区 发 现 算法 的 评判 标准 ,给 
予 不 同 指标 相应 权 值 ,尤其 要 完善 动态 社区 发 现 算 法 
的 评价 问题 ,应 对 不 同时 间 窗 口 的 社区 演化 和 识别 的 
社区 质量 进行 综合 评价 。 

(3) 提 出 基于 时 空 特征 的 社区 发 现 算法 ,结合 时 
间 和 空间 信息 对 基于 位 置 的 发 现 算 法 做 出 优化 ,研究 
社交 媒体 中 话题 或 者 用 户 群体 的 时 空 轨迹 分 布 情况 。 
4.2 区 分 并 拓展 社区 发 现 方法 的 应 用 场景 

(1) 区 分 应 用 场景 ,选择 最 佳 方法 。 例 如 较 小 的 
社 群 分 析 , 可 以 选择 运算 准确 但 效率 偏 低 的 算法 ; 相 
反 , 在 研究 具有 千 万 级 节点 的 网 络 时 , 除 识别 准确 性 以 
外 ,还 应 考虑 预算 和 时 间 成 本 问题 ,在 社区 发 现 方法 的 
选择 上 不 能 盲目 追求 其 识别 的 精准 性 。 

(2) 扩 展 研 究 平 台 类 型 。 有 关 淘 宝 、 亚马逊 等 购 
物 平 台 \ 在 线 健 康 社区 以 及 知 乎 为 代表 的 在 线 问答 社 


二 


决 。 其 次 ,目前 该 领域 的 应 用 范围 较 罕 ,实际 应 用 场景 


区 研究 较 少 ,可 以 依托 各 类 平台 开展 社区 发 现 研 究 。 
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(3) 拓 宽 实际 应 用 场景 。 国 外 较 多 文献 涉猎 于 病 
毒 传播 网 络 .通信 网 络 以 及 网 络 犯罪 团体 识别 等 相关 
领域 。 未 来 可 以 拓展 社区 发 现实 际 应 用 场景 ,如 社区 
结构 分 析 中 的 用 户 隐私 保护 ,发现 异常 用 户 群 体 解决 
网 络 安全 问题 以 及 虚拟 学 术 社区 中 研究 新 兴 主 题 识别 
等 
4.3 ”融合 跨 学 科 知 识 、 前 沿 技术 方法 的 交叉 研究 

(1) 融 合 跨 学 科 领 域 知识 。 例 如 借鉴 网 络 结构 分 
析 方 法 在 研究 蛋白 质 网 络 结构 、 预 测 蛋 白质 病变 以 及 
分 子 间 相互 影响 的 案例 ,未 来 可 以 融合 医学 及 生物 
学 领域 等 知识 ,结合 社区 发 现 方 法 分 析 生 物 细胞 、 分 子 
结构 等 。 或 基于 复杂 网 络 与 传播 动力 学 理论 ,利用 社 
区 发 现 方法 研究 信息 和 知识 的 传播 机 理 ` 学 科 间 的 知 
识 融 合 规律 及 追 自 踪 网 络 与 情 传播 态势 等 ,都 是 值得 关 


yi 


ER 
QN(2) 结 合 人 工 智能 类 的 新 兴 方 法 。 复杂 网 络 的 节 
点 往 息 表示 多 采用 人 工 提取 特征 的 方法 ,网 络 表 示 学 


寺 革 法 插 网 络 信息 转化 为 低 维 笛 密 的 实数 向 量 ,通过 
梯 广 下 降 优化 算法 实现 最 优化 求解 参数 ,可 以 降低 计 
人 如 SOM 神经 网 络 聚 类 算法 罗 可 
也 不 同 标签 相应 权重 值 , 与 社区 发 现 方法 相 结合 
准确 聚 类 ,有 效 解决 兴趣 特征 的 稀 玻 
性 或 特征 选择 过 程 中 标签 过 多 造成 的 维 数 灾难 。 其 
;人 纵 们 对 视频 媒体 平台 逐步 热衷 ,开展 视频 媒体 中 的 
语 廊 信息 提取 聚焦 用 户 生成 内 容 等 均 为 难点 所 在 , 导 
致 年 区 发 现 方法 在 图 文 .视频 分 享 类 媒体 中 研究 较 少 ， 
上 Crwprd2vec 词 向 量 生成 模型 . 卷 积 神经 网 络 在 图 像 识 
别 .自然 语言 处 理 上 的 成 功 应 用 为 参考 ,未 来 可 以 将 前 
沿 的 技术 方法 应 用 于 社区 发 现 方法 的 提升 中 ,有 助 于 
在 基于 内 容 的 多 媒体 社区 中 挖掘 群体 结构 。 
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Research Progress in Community Detection of Online Social Networks 
Zhang Haitao'” Zhou Honglei Zhang Xinrui Sun Tong' 
' Management School of Jilin University, Changchun 130022 
“The Information Resource Research Center of Jilin University ,Changchun 130022 
Abstract: | Purpose/significance | Taking online social network as the research object, and through the litera- 
ture combing to accurately capture the development trend and research hotspots of community discovery, and explo- 
ring how to mine hidden communities in large-scale social networks, which has theoretical and practical significance. 
| Method/ process | Using CNKI database, Web of Science core collection and related international conference docu- 
as data sources. The CiteSpace visual analysis tool was used to quantitatively study hotspot keywords, topic e- 
lution paths and co-cited documents. And the topic research content was reviewed from 3 dimensions: community 
ihcovery method, algorithm implementation and application practice. | Result/conclusion | There is still much room 
development in the current research field. In the future, we should pay attention to optimization and innovation of 
algorithms ，differentiation and expansion of application scenarios, and cross-disciplinary research on interdisciplinary 
KRowledge and cutting-edge technology methods. 


Keywords: online social network community detection dynamic community evolution research progress 
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